1.背景
網絡空間(Cyberspace)被稱為陸、海、空、天之外的第五大主權空間,網絡空間安全關乎國家安全和利益。隨著云計算、物聯網、移動互聯網、大數據、人工智能等技術的部署應用,網絡空間呈現組成結構復雜化、保護對象動態化、系統運行智能化等特點,這些變化給網絡空間安全帶來了新的挑戰。
近年來,以機器學習為核心的人工智能技術在計算機視覺、語音識別、自然語言處理等方面取得了較好的應用效果,展現了機器學習在分類、預測及輔助決策方面的能力優勢,也為解決網絡空間安全問題帶來了新的途徑。目前,機器學習技術在惡意樣本檢測、DGA域名檢測、DNS隧道檢測、惡意加密流量檢測、威脅情報挖掘等領域都有一定應用效果。然而,人工智能技術是把雙刃劍。一方面可用于網絡安全防護,提升防御者的能力,另一方面也可用于幫助攻擊者增強攻擊能力。此外,基于人工智能技術的各類系統,不僅面臨來自軟件、硬件、網絡等方面的傳統安全威脅(如:軟件漏洞利用),還面臨來自機器學習算法、模型等人工智能技術自身特有的安全威脅(如:對抗樣本攻擊)。
現階段,人工智能安全已經成為工業界和學術界的熱門話題,相關研究工作主要圍繞人工智能自身安全和人工智能賦能安全兩大方向,相關理論和技術還在不斷發展,仍存在不少問題和挑戰。
本文主要對人工智能安全的概念含義和研究內容進行了介紹,并說明了天融信智能安全研究團隊在人工智能安全方面的技術研究、積累和實踐。
2.人工智能安全概念
中國工程院方濱興院士指出了新技術和安全之間存在的兩種關系:第一種是新技術服務于安全即新技術賦能安全,既可以服務于防御,也可以服務于攻擊。第二種是新技術引入新的安全問題即新技術和安全是伴生關系。人工智能作為新技術,即可以賦能網絡安全,提升網絡防護能力,也可以被惡意利用,增強攻擊性和破壞影響力。同時,人工智能技術自身存在脆弱性,如果被攻擊者利用,可能引發的新的安全風險[1]。
綜合分析,人工智能安全概念應該從人工智能的自身安全和人工智能的安全應用兩方面去理解(見圖1)。

人工智能的自身安全指人工智能應用的自身脆弱性帶來的安全問題,具體分為兩類:
傳統安全:指人工智能應用系統中軟硬件方面脆弱性帶來的安全問題。例如,自動駕駛系統軟件漏洞被利用而植入惡意代碼,導致車輛無法正常運轉。
特有安全:指人工智能應用系統中機器學習算法、模型脆弱性帶來的安全問題。例如,自動駕駛系統的圖像分類算法受到對抗樣本攻擊,導致路標識分類錯誤,進而造成車輛行駛決策失效。
人工智能的安全應用指以人工智能相關技術為支撐的安全應用,包括:
安全防御:指基于人工智能的安全檢測、安全防護等應用。例如,入侵檢測。
安全攻擊:指基于人工智能的入侵隱藏、行為欺騙等應用。例如,社會工程攻擊。
3.人工智能安全研究
3.1.人工智能的自身安全
3.1.1.安全風險分析
國際標準化組織ISO將人工智能系統全生命周期概括以下8個階段:
初始:指將想法轉化為有形系統的過程,主要包括:任務分析、需求定義、風險管理等過程。
設計研發:設計研發階段是指完成可部署人工智能 系統創建的過程,主要包括:確定設計方法、定義系統框架、軟件代碼實現、風險管理等過程。
檢驗驗證:指檢查人工智能系統是否按照預期需求工作以及是否完全滿足預定目標。
部署:指在目標環境中安裝和配置人工智能系統的過程。
運行監控:人工智能系統處于運行和可使用狀態,主要包括:運行監控、維護升級等過程。
持續驗證:對于開展持續學習的人工智能系統進行持續檢驗和驗證。
重新評估:當初始目標無法達到或者需要修改時,進入重新評估階段。該階段主要包括:設計定義、需求定義、風險管理等過程。
廢棄:使用目的不復存在或者有更好解決方法替換的人工智能系統,主要包括:數據、算法模型以及系統整體的廢棄銷毀過程。
各階段對應的安全風險如下(圖2)[2].

3.1.2.安全框架設計
安全框架是構建安全體系的重要指導。圍繞人工智能系統生命周期安全風險,中國信息通信研究院設計一個比較完整人工智能安全框架[2]。

該框架聚焦于人工智能自身安全問題,即主要解決人工智能基礎設施和人工智能設計研發面臨的安全風險,以及因前兩方面安全問題直接引發的人工智能應用行為決策失控安全風險。該框架包含:安全目標、安全能力、安全技術和安全管理四個維度。其中,安全目標是保障人工智能應用安全的起點和基礎,安全能力是實現安全目標的有效保障,安全技術和安全管理是安全能力的支撐和體現。其中,技術和管理維度具體內容如下 (圖4)。

3.1.3.研究內容
人工智能安全框架(技術和管理部分)總體上覆蓋了人工智能安全技術和管理體系范圍,也是人工智能應用自身安全研究的主要范圍。其中,業務合規性評估、漏洞挖掘修復等都屬于傳統安全研究范圍。而對抗樣本檢測、算法魯棒性增強、數據分布修正等則屬于機器學習算法、數據、模型相關特有安全研究范圍。
當前,人工智能機器學習相關的特有安全研究主要指對抗機器學(Adversarial Machine Learning,AML)即在對抗環境下的機器學習系統攻擊和防御兩個方面,這也是人工智能安全研究最核心、最熱門的研究話題。以下主要對這兩方面內容進行介紹[3]。
3.1.3.1.相關術語
對抗樣本(Adversarial Example):為使模型出錯而對原始樣本精心擾動的樣本。
對抗訓練(Adversarial Training):使用原始訓練集和對抗樣本共同訓練機器學習模型。
敵手(Adversary):實施攻擊者。
白盒攻擊(White-box Attack):攻擊者擁有目標模型全部知識的攻擊,包括:參數值、模型結構、訓練方法、訓練數據等。
黑盒攻擊(Black-box Attack):攻擊者僅擁有模型有限知識的攻擊(例如,只知道模型的反饋結果)。
灰盒攻擊(Gray-box Attack):攻擊者僅了解模型的部分信息的攻擊(例如,只知道模型結構,但不知道參數)。
3.1.3.2.對抗攻擊

人工智能應用的機器學習過程涉及訓練數據、傳統信道、目標模型、推測結果等保護對象,攻擊者可以根據其所擁有的條件,針對整個學習過程發起相應的攻擊,說明如下:
投毒攻擊:該攻擊通過修改一定數量的訓練數據使模型訓練過程產生錯誤的關系輸出。該攻擊發生在訓練階段,攻擊目標是訓練數據集。攻擊者具有獲取、修改或創造訓練數據集的能力,知道訓練數據集的標簽等背景知識。
對抗樣本攻擊:該攻擊通過構造對抗樣本,使模型推測過程產生錯誤結果。攻擊發生在推理階段,攻擊目標是測試數據集。攻擊者具有獲取和修改測試樣本的能力,知道標簽等背景知識。
數據竊取攻擊:該攻擊通過存儲和通信機制的漏洞、查詢或反演技術等多種手段,竊取機器學習隱私信息(如:訓練數據、模型訓練方法和訓練參數)。該攻擊大部分發生在黑盒攻擊中,攻擊者僅具有竊取部分數據的能力。
隱私詢問攻擊:指攻擊者在無法獲取訓練數據和模型數據情況下,僅通過觀察測試數據輸入模型后返回的結果即詢問結果的方式實施隱私信息的計算和推測。
主要攻擊類型:成員推理攻擊:指攻擊者根據詢問結果判斷出某個個體是否參與模型訓練。訓練數據提取攻擊:指攻擊者利用詢問數據與已有知識推測訓練數據隱私的攻擊。模型提取攻擊:指攻擊者利用詢問接口獲得模型的分類與測試輸入輸出數據,從而重構一個與原模型相似的模型的攻擊。
3.1.3.3.對抗防御

與上述攻擊相對應的安全防御機制也有多種,主要包括:正則化、對抗訓練、防御精餾、隱私保護等,說明如下:
正則化:指通過對訓練數據和模型規范化操作,降低模型的出錯率。訓練數據的正則化可以防御訓練數據投毒攻擊,提高模型泛化能力,主要包括數據集增強、數據集擴充等措施;模型的正則化可以防御對抗樣本攻擊,主要利用正則化項對模型參數和訓練方式進行規范化處理。
對抗訓練:指使用對抗模型生成帶有完全標注的對抗樣本和合法樣本混合起來對原模型進行訓練的過程。主要目的是學習對抗樣本和正確標簽的關系,提升模型魯棒性。
防御精餾:指通過一個模型的輸出訓練另一個模型的機器學習算法,是在保證訓練精度條件下壓縮模型方法,可以增強模型面對對抗樣本攻擊的魯棒性。
隱私保護機制:數據竊取攻擊和隱私詢問攻擊主要針對模型和數據的隱私。加密、擾動等機制可以保護數據和模型的隱私。分布式機器學習、差分隱私等機制可以使模型以隱私保護的方式進行學習。
3.2.人工智能的安全應用
3.2.1.人工智能賦能安全的工作流程

如圖所示,人工智能賦能安全應用的工作流程包括:安全問題抽象、數據采集、數據預處理及安全特征提取、模型構建、模型驗證以及模型效果評估6個階段,各階段不能獨立存在,相互之間存在一定的關聯關系。例如,數據采集、數據預處理、模型構建都需要不斷獲取模型驗證階段的原因分析結果作為優化調整依據[4]。
安全問題抽象:即將網絡空間安全問題映射為機器學習能夠解決的問題類別。

數據采集:指利用數據采集手段(如Wireshark、Netflow、日志收集工具等),從系統層、網絡層及應用層采集數據。除自行采集數據外,還可以使用公開數據集。
數據預處理及安全特征提取:數據預處理主要指對原始數據進行清洗和處理,主要包括:對數據規范化、離散化以及非平衡性的處理等過程。安全特征提取指從預處理后的數據中代表安全問題的本質特性的屬性。特征提取操作除了采用人工方式還可以基于深度學習的自動化方式。
模型構建:指根據數據預處理后的數據集及目標問題類型,選擇合適的學習算法,構建求解問題模型的過程,具體工作包括:算法選擇和參數調優。
算法選擇:在機器學習領域,按照數據集是否有標記分為監督學習算法(常用于分類問題和回歸問題)、無監督學習算法(常用于聚類問題)。常見監督學習算法:邏輯回歸(Logistic Regression, LR)、人工神經網絡(Artificial Neural Network, ANN)、支持向量機 (Support Vector Machine, SVM)、決策樹、隨機森林、線性回歸等。常見非監督學習算法:K-Means, K-近鄰(k-Nearest Neighbor,KNN)、基于密度的DBSCAN(Density Based spatial Clustering of Applications with Noise)算法、層次聚類(Hierarchical Clustering)算法、圖聚類算法等。此外,還有深度學習、遷移學習、深度增強學習算法以及生成對抗網絡等算法。
參數調優:參數調優與訓練目標、選擇的算法相關,當前該過程還缺乏足夠的理論指導,需要在龐大的參數空間來尋找可接受的參數或者依據個人經驗進行調整。
模型驗證:指評估訓練模型是否足夠有效的過程。如果當前模型與訓練目標偏離較大,則通過分析誤差樣本發現錯誤發生的原因,包括模型和特征是否正確、數據是否具有足夠的代表性等。如果數據不足,則重新進行數據采集;如果特征不明顯,則重新進行特征提取;如果模型不佳,則選擇其他學習算法或進一步調整參數。目前,k倍交叉驗證法是最常見的驗證模型方法。
效果評估:指評估模型的學習效果以及泛化能力的過程。泛化能力的評估通常是對測試集進行效果評估。不同領域有不同指標的提法,常見的效果評估指標包括:精確率、召回率、準確率、F-score以及ROC-AUC曲線等。
3.2.2.安全防御
基于人工智能的安全防御研究基本涵蓋了網絡空間安全的各個層面,可以從系統安全、網絡安全、應用安全三個層面進行歸納(圖9)[4]。

系統安全類:系統安全應用涵蓋了芯片、系統硬件及物理環境、系統軟件三個層面。其中,芯片安全包括:劣質芯片檢測、硬件木馬檢測及物理不可克隆函數(Physical Unclonable Function,PUF)攻擊等;系統硬件及物理環境安全包括:設備身份認證、密碼設備側信道攻擊及偽基站檢測等;系統軟件安全包括:漏洞分析與挖掘、惡意代碼分析、用戶身份認證及虛擬化安全等。
網絡安全類:網絡安全應用涵蓋了網絡基礎設施安全以及網絡安全檢測兩個方面。其中,網絡基礎設施安全包括:BGP的異常檢測、惡意域名檢測等;網絡安全檢測包括:僵尸網絡檢測、網絡入侵檢測以及惡意加密流量識別等。
應用安全類:應用安全涵蓋應用軟件安全和社交網絡安全兩個方面。其中,應用軟件安全主要包括:垃圾郵件檢測、惡意URL識別、惡意PDF檢測等;社交網絡安全主要包括:社交網絡異常帳號檢測、信用卡欺詐檢測、取證分析、網絡輿情等。
3.2.3.安全攻擊
基于人工智能的安全攻擊覆蓋了網絡空間不同層面,包括:物理攻擊、網絡攻擊、數據攻擊、應用攻擊等。典型的攻擊場景包括:拒絕服務攻擊、社會工程攻擊、惡意代碼對抗等。圍繞網絡空間安全典型場景的主要研究內容如下所示(圖10)[5]。

網絡資產自動探測識別:指追蹤、掌握網絡資產情況的過程技術。例如,通過引入機器學習、深度學習等方法,進行操作系統指紋識別。
自動化社會工程學攻擊:指利用機器學習、神經網絡等方法實現釣魚式攻擊、蠕蟲傳播、垃圾郵件散發等攻擊過程的自動化。例如,基于自然語言生成(NLG)的自動化網絡釣魚攻擊方法,可以利用深度學習分析文本內容,識別目標感興趣的主題,生成目標可能響應的文本內容,并以郵件、社交網站等作為惡意代碼傳輸載體實施攻擊。
智能惡意代碼攻擊:指針對惡意代碼檢測的對抗性攻擊。例如,在惡意代碼中插入一部分對抗性樣本,可繞過安全產品的檢測。
自動化漏洞挖掘與利用:指在無人工干預的基礎上自動化挖掘軟件內部缺陷并利用該缺陷使軟件實現非預期功能。
4.人工智能安全實踐
通過人工智能技術賦能網絡安全產品和服務,可以有效應對網絡空間結構復雜化、安全大數據化、攻擊動態演進等變化帶來的挑戰,增強安全產品的防御能力,提高安全服務人員的生產率。為此,天融信秉承“可信網絡 安全世界”的理念,從技術研究和產品研發兩個層面推進AI安全技術落地和實踐 (圖11)。
技術研究層面:公司成立了專業的研究團隊,圍繞人工智能技術的安全應用及人工智能應用的自身安全,全面展開技術探索,目前已經在DNS隧道檢測、DGA域名檢測、惡意PDF檢測、惡意樣本檢測、惡意樣本同源分析、安全實體識別、威脅情報挖掘、安全知識圖譜、對抗樣本生成等方面形成了技術積累。
產品研發層面:公司在安全檢測、安全網關、安全云服務、大數據分析、數據安全、云安全、工控安全等產品方面全面實現了AI賦能,進一步提升了安全產品和市場競爭力。

5.后記
無論是人工智能自身安全還是人工智能的安全應用,相關研究工作對于推動網絡空間安全發展都具有重要的意義。本文是人工智能安全研究方向的開篇介紹,后續將為讀者介紹具體的技術研究成果和應用情況,敬請關注。
如文中描述有誤,懇請指出,感謝閱讀。
6.參考資料
[1]方濱興 人工智能安全[M]北京 電子工業出版社 2020.
[2]中國信息通信研究院安全研究所 人工智能安全框架(2020年)[R] 2020年12月.
[3]李欣姣 等人 機器學習安全攻擊與防御機制研究進展和未來挑戰[J]軟件學報 2021 32(2):406-423.
[4]張蕾 等人 機器學習在網絡空間安全研究中的應用[J]計算機學報 2018 41(9):1943-1975.
[5]方濱興 等人 人工智能賦能網絡攻擊的安全威脅及應對策略[J]中國工程科學 2021
版權聲明
(轉載請務必注明出處。版權所有,違者必究。)
- 關鍵詞標簽:
- 天融信 人工智能安全 天融信智能安全研究團隊